Designing and analyzing model-based RL (MBRL) algorithms with guaranteed monotonic improvement has been challenging, mainly due to the interdependence between policy optimization and model learning. Existing discrepancy bounds generally ignore the impacts of model shifts, and their corresponding algorithms are prone to degrade performance by drastic model updating. In this work, we first propose a novel and general theoretical scheme for a non-decreasing performance guarantee of MBRL. Our follow-up derived bounds reveal the relationship between model shifts and performance improvement. These discoveries encourage us to formulate a constrained lower-bound optimization problem to permit the monotonicity of MBRL. A further example demonstrates that learning models from a dynamically-varying number of explorations benefit the eventual returns. Motivated by these analyses, we design a simple but effective algorithm CMLO (Constrained Model-shift Lower-bound Optimization), by introducing an event-triggered mechanism that flexibly determines when to update the model. Experiments show that CMLO surpasses other state-of-the-art methods and produces a boost when various policy optimization methods are employed.
translated by 谷歌翻译
以移动为中心的AI应用程序对模型推断的资源效率有很高的要求。输入过滤是消除冗余以降低推理成本的有前途的方法。以前的努力已经针对许多应用程序量身定制了有效解决方案,但是尚未解决两个基本问题:(1)推理工作量的理论滤波器可指导输入过滤技术的应用,从而避免了资源受限的移动应用程序的试用成本; (2)功能嵌入的可辨别性可允许输入过滤对各种推理任务和输入内容有效。为了回答它们,我们首先将输入过滤问题正式化,理论上比较了推理模型和输入过滤器的假设复杂性,以了解优化潜力。然后,我们提出了第一个端到端可学习的输入过滤框架,该框架涵盖了大多数最先进的方法,并以可强大的可区分性嵌入功能。我们设计和实施支持六种输入方式和多个以移动为中心的部署的INFI。综合评估证实了我们的理论结果,并表明INFI在适用性,准确性和效率方面的表现优于强大的基准。 INFI获得8.5倍的吞吐量并节省95%的带宽,同时保持超过90%的精度,以用于移动平台上的视频分析应用程序。
translated by 谷歌翻译
本文试图通过域的适应来建立新兴超模型范式的理论基础,其中首先训练一个非常大的模型,{\ it i.e.},超级模型(或其他论文中的基础模型),大量数据,然后将其调整到各种特定域。超模型范式有助于减少计算和数据成本和碳排放,这对AI行业至关重要,尤其是中小型企业。我们将超模型范式建模为两个阶段的扩散过程:(1)在训练阶段,模型参数从随机缩写和收敛到稳定分布; (2)在微调阶段,模型参数被运输到另一个稳定分布。两个训练阶段都可以通过Uhlenbeck-ornstein过程进行数学建模,该过程分别收敛到两个Maxwell-Boltzmann分布,每个分布都表征了相应的收敛模型。然后,通过PAC-Bayesian Framework建立了$ \ Mathcal O(1/\ sqrt {n})$概括。该理论发现,微调阶段的概括误差在域适应中是主要的。此外,我们的理论表明,概括是由一种新的度量确定的,该新度量是根据协方差矩阵和融合局部最小值的转移来表征源域和目标域之间域差异的。
translated by 谷歌翻译
大型语言模型(LLM)已在一系列自然语言理解任务上实现了最先进的表现。但是,这些LLM可能依靠数据集偏差和文物作为预测的快捷方式。这极大地损害了他们的分布(OOD)概括和对抗性鲁棒性。在本文中,我们对最新发展的综述,这些发展解决了LLMS的鲁棒性挑战。我们首先介绍LLM的概念和鲁棒性挑战。然后,我们介绍了在LLM中识别快捷方式学习行为的方法,表征了快捷方式学习的原因以及引入缓解解决方案。最后,我们确定了关键挑战,并将这一研究线的联系引入其他方向。
translated by 谷歌翻译
This paper studies the algorithmic stability and generalizability of decentralized stochastic gradient descent (D-SGD). We prove that the consensus model learned by D-SGD is O(m/N +1/m+λ 2 )-stable in expectation in the non-convex non-smooth setting, where N is the total sample size of the whole system, m is the worker number, and 1−λ is the spectral gap that measures the connectivity of the communication topology. These results then deliver an2 ) in-average generalization bound, which is nonvacuous even when λ is closed to 1, in contrast to vacuous as suggested by existing literature on the projected version of D-SGD. Our theory indicates that the generalizability of D-SGD has a positive correlation with the spectral gap, and can explain why consensus control in initial training phase can ensure better generalization. Experiments of VGG-11 and ResNet-18 on CIFAR-10, CIFAR-100 and Tiny-ImageNet justify our theory. To our best knowledge, this is the first work on the topology-aware generalization of vanilla D-SGD. Code is available at https://github.com/Raiden-Zhu/ Generalization-of-DSGD.
translated by 谷歌翻译
半监控视频对象分割(VOS)是指在近年来在第一帧中的注释中分割剩余帧中的目标对象,该帧近年来已经积极研究。关键挑战在于找到利用过去框架的时空上下文的有效方法来帮助学习当前帧的判别目标表示。在本文中,我们提出了一种具有专门设计的交互式变压器的新型暹罗网络,称为SITVOS,以实现从历史到当前帧的有效上下文传播。从技术上讲,我们使用变换器编码器和解码器单独处理过去的帧和当前帧,即,编码器从过去的帧中对目标对象的强大的时空上下文进行编码,而解码器将当前帧的特征嵌入为查询。从编码器输出检索目标。为了进一步增强目标表示,设计了一种特征交互模块(FIM)以促进编码器和解码器之间的信息流。此外,我们使用暹罗架构来提取过去和当前帧的骨干功能,它能够重用并且比现有方法更有效。三个挑战基准测试的实验结果验证了SITVOS在最先进的方法上的优越性。
translated by 谷歌翻译
现有场景文本识别(str)方法通常使用语言模型来优化通过视觉识别(VR)模型预测的1D字符序列的联合概率,该模型忽略了字符实例内和之间的视觉语义的2D空间上下文不概括为任意形状的场景文本。要解决此问题,我们首次尝试根据本文的视觉语义进行文本推理。从技术上讲,给定VR模型预测的字符分割映射,我们为每个实例构造一个子图,其中节点表示基于它们的空间相似度之间的节点中的像素和边缘。然后,这些子图通过其根节点顺序连接并合并到完整的图表中。基于此图,我们通过通过跨熵损失监督它来设计图表卷积网络以进行文本推理(GTR)。 GTR可以轻松插入代表性的STR模型,以提高其性能,因为较好的文本推理。具体而言,我们通过将GTR并将GTR与基于分段的STR基线中的语言模型并联的语言模型进行了构建模型,即,通过相互学习可以有效利用视觉语言互补性。 S-GTR在六个挑战性的STR基准上套装新的最先进的基准,并概括为多语言数据集。代码可用于https://github.com/adeline-cs/gtr。
translated by 谷歌翻译
深度神经网络(DNN)极大地促进了语义分割中的性能增益。然而,训练DNN通常需要大量的像素级标记数据,这在实践中收集昂贵且耗时。为了减轻注释负担,本文提出了一种自组装的生成对抗网络(SE-GAN)利用语义分割的跨域数据。在SE-GaN中,教师网络和学生网络构成用于生成语义分割图的自组装模型,与鉴别器一起形成GaN。尽管它很简单,我们发现SE-GaN可以显着提高对抗性训练的性能,提高模型的稳定性,这是由大多数普遍培训的方法共享的常见障碍。我们理论上分析SE-GaN并提供$ \ Mathcal o(1 / \ sqrt {n})$泛化绑定($ n $是培训样本大小),这表明控制了鉴别者的假设复杂性,以提高概括性。因此,我们选择一个简单的网络作为鉴别器。两个标准设置中的广泛和系统实验表明,该方法显着优于最新的最先进的方法。我们模型的源代码即将推出。
translated by 谷歌翻译
贝叶斯神经网络(BNNS)已成为缓解深度学习中过度自信预测的主要方法,但由于大量分布参数,它们经常遭受扩展问题。在本文中,我们发现在单独再培训时,深网络的第一层拥有多个不同的Optima。这表示当第一层由贝叶斯层改变时的大后差,这使我们能够设计空间融合BNN(STF-BNN),以便有效地将BNN缩放到大型模型:(1)首先常常培训一个神经网络网络从头开始实现快速训练; (2)第一层被转换为贝叶斯和通过采用随机变分推断推断,而其他层是固定的。与香草BNN相比,我们的方法可以大大减少训练时间和参数的数量,这有助于高效地缩放BNN。我们进一步提供了对概括性和缓解STF-BNN过度限制的能力的理论保障。综合实验表明,STF-BNN(1)实现了最先进的性能,以进行预测和不确定量化; (2)显着提高对抗性鲁棒性和隐私保护; (3)大大降低了培训时间和内存成本。
translated by 谷歌翻译
复合值的神经网络(CVNNS)已广泛应用于各种领域,尤其是信号处理和图像识别。然而,很少有作品关注CVNN的泛化,尽管它至关重要,以确保CVNNS在看不见的数据上的性能至关重要。本文是第一项工作,证明了复杂的神经网络的泛化。束缚尺度具有光谱复杂性,其主导因子是重量矩阵的光谱范数产物。此外,我们的工作为训练数据顺序时为CVNN提供了泛化,这也受光谱复杂度的影响。从理论上讲,这些界限通过Maey Sparsification Lemma和Dudley熵整体来源。经验上,我们通过在不同的数据集上培训复杂的卷积神经网络进行实验:Mnist,FashionMnist,CiFar-10,CiFar-100,微小想象成和IMDB。 Spearman的秩序相关系数和这些数据集上的相应P值给出了由权重矩阵光谱规范产品测量的网络的光谱复杂度,与概括能力有统计学显着的相关性。
translated by 谷歌翻译